论文推荐 | [ECCV 2020] 真实自然场景文本图像的超分辨率网络与数据
本文简要介绍ECCV 2020论文“Scene Text Image Super-Resolution in the Wild”的主要工作。该论文主要针对自然场景图片的超分辨率(SR)问题,提出了一个包含真实的自然场景图片的SR数据集TextZoom,它包含真实的低分辨率(LR)和高分辨率(HR)的图片对,相比于合成数据更具真实性与挑战性。同时,提出了一个新的文本图片的超分辨率网络(TSRN),其包含三个新型的模块。在TextZoom上的大量实验表明,与合成SR数据相比,TSRN极大地提高了CRNN[1]、ASTER[2]和MORAN[3]的识别准确率。此外,TSRN在提高TextZoom的LR图像的识别精度方面明显优于7种最先进的SR方法。
一、研究背景
场景文本识别是计算机视觉中的一项基础而重要的任务,因为它通常是许多文本相关下游任务的关键步骤,例如文件检索,卡片识别,车牌识别等。其中,自然场景中的文本,由于其在模糊、方向、形状和低分辨率等方面具有高度多样性,使得自然场景文本识别更具挑战性。近年来,深度学习和卷积神经网络的发展使得场景文本识别领域产生了巨大的突破,当前的文本识别器已经能在清晰文本图像上取得较好的效果。然而,当识别LR的文本图像时,它们的性能急剧下降。其主要困难在于LR文本的光学退化使得字符的形状模糊。因此,如果我们引入SR方法作为文本识别前的预处理过程,将是一个很有潜力的解决办法。然而,当前没有一个真实的数据集和相应的方法关注场景文本图片的SR问题。
二、TextZoom数据集 ·
TextZoom数据集的标注信息比较丰富,包括文本的方向、文本的内容与文本图像采集时的原始焦距。同时,其包含了大量来自不同自然场景的文本,包括街景、图书馆、商店、汽车内饰等。
三、方法原理简述
整体的流程如下,作者先在原始的RGB输入图片上拼接了一个二值掩膜。训练过程中,首先由中心对齐模块对输入进行校正。然后利用CNN层从校正后的图像中提取浅层特征。接着使用叠加的5个SRB,提取深度和顺序相关特征,并按照ResNet[7]进行shortcut。最终,SR图像由上采样模块和CNN生成。作者还设计了一个梯度先验损失(LGP)来增强字符形状的边界,网络的输出由L2和LGP来监督。Central Alignment Module主要是解决部分LR图像中的一些文本像素对应了HR图像中的背景像素,网络可能会学习到错误的像素对应信息。因此作者就在网络前面加了一个TPS变换,这样LR图像中的文本区域会被对齐到中心附近,像素级的损失将会更好的监督网络,使性能更好。因为文本图像具有很强的序列性,Sequential Residual Block的目的是训练一个能够重建文本图像上下文信息的SR网络。具体而言,作者从水平和垂直两个方向引入BLSTM,堆叠了五个由CNN、BLSTM与Shortcut组成的 SRB。
Gradient Profile Loss源于Gradient Profile Prior[8],目的是产生更清晰的边缘。因为作者提出了一个成对的文本SR数据集,那么就可以使用HR图像的梯度场作为Ground Truth。一般来说,文字图像中字符的颜色与背景有强烈的对比。因此,锐化字符的边界可以使字符更加明显。
四、主要试验结果及可视化结果 ·
表1 不同方法的结果比较
图4 SOTA的SR方法在TextZoom上的可视化效果
五、总结及讨论
在未来,作者将收集更合适、更多样的文本图像,将避免使用过大或过小的图像。图像还应该包含更多种类的语言,如汉语、法语和德语。作者也将专注于新的方法,如引入注意力机制到文本SR任务。
六、相关资源 ·
七、参考文献 ·
[1]Shi, B., Bai, X., Yao, C.: An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach.Intell. (2017)
[2]Shi,B., Yang, M., Wang, X., Lyu, P., Yao, C., Bai, X.: Aster: An attentional scene text recognizer with flexible rectification. IEEE Trans. Pattern Anal. Mach. Intell.(2018)
[3]Luo,C., Jin, L., Sun, Z.: Moran: A multi-object rectified attention network for scenetext recognition. Pattern Recognition (2019)
[4] Cai, J., Zeng, H., Yong, H., Cao, Z., Zhang, L.: Towardreal-world single image super-resolution: A new benchmark and a new model. In:ICCV (2019)
[5] Zhang, X., Chen, Q., Ng, R., Koltun, V.: Zoom to learn, learn tozoom. In: CVPR (2019)
[6] Ledig, C., Theis, L., Husz´ar, F., Caballero, J., Cunningham,A., Acosta, A., Aitken, A., Tejani, A., Totz, J., Wang, Z., et al.:Photo-realistic single image super resolution using a generative adversarial network. In: Proc. IEEE Conf. Comp. Vis. Patt. Recogn. (2017)
[7] He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning forimage recognition. In: CVPR (2016)
[8] Sun, J., Sun, J., Xu, Z., Shum, H.: Gradient profile prior and its applications in image super-resolution and enhancement. TIP (2011)
原文作者:Wenjia Wang, Enze Xie, Xuebo Liu, Wenhai Wang, Ding Liang, Chunhua Shen, Xiang Bai撰稿:朱远志编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。
扫描二维码,关注我们:D